在處理資料時,有些資料需要需要做轉換,如在做分類時直接將每個類別都直接丟下去做訓練,這樣比較難訓練外還有可能訓練結果不好,所以將類別或是文字的資料標記成數字,而在做訓練時程式能更好的運算。
Label encoding:只要新增一個類別,類別的那一欄位就增加一個類別。
One hot encoding : 為每個類別新增一個欄位,用0和1來表示是否存在。
兩者更有利弊,在第一種,若在Categorical的那一欄,有順序大小之分,當我們對其進行Label encoding後,在訓練時模型可能會誤認為數字越大的代表'大於'小數字,但其實這數字只代表他們是不同種類,那這種資料使用無序的離散值One hot encoding會比較合適。
在每一種資料使用前都要去了解資料背後代表的意義是甚麼,要如何使用這些資料在訓練上最為合適。